Learning-from-Observation (LfO) is a robot teaching framework for programming operations through few-shots human demonstration. While most previous LfO systems run with visual demonstration, recent research on robot teaching has shown the effectiveness of verbal instruction in making recognition robust and teaching interactive. To the best of our knowledge, however, few solutions have been proposed for LfO that utilizes verbal instruction, namely multimodal LfO. This paper aims to propose a practical pipeline for multimodal LfO. For input, an user temporally stops hand movements to match the granularity of human instructions with the granularity of robot execution. The pipeline recognizes tasks based on step-by-step verbal instructions accompanied by demonstrations. In addition, the recognition is made robust through interactions with the user. We test the pipeline on a real robot and show that the user can successfully teach multiple operations from multimodal demonstrations. The results suggest the utility of the proposed pipeline for multimodal LfO.
translated by 谷歌翻译
Robot developers develop various types of robots for satisfying users' various demands. Users' demands are related to their backgrounds and robots suitable for users may vary. If a certain developer would offer a robot that is different from the usual to a user, the robot-specific software has to be changed. On the other hand, robot-software developers would like to reuse their developed software as much as possible to reduce their efforts. We propose the system design considering hardware-level reusability. For this purpose, we begin with the learning-from-observation framework. This framework represents a target task in robot-agnostic representation, and thus the represented task description can be shared with various robots. When executing the task, it is necessary to convert the robot-agnostic description into commands of a target robot. To increase the reusability, first, we implement the skill library, robot motion primitives, only considering a robot hand and we regarded that a robot was just a carrier to move the hand on the target trajectory. The skill library is reusable if we would like to the same robot hand. Second, we employ the generic IK solver to quickly swap a robot. We verify the hardware-level reusability by applying two task descriptions to two different robots, Nextage and Fetch.
translated by 谷歌翻译
将口头文本映射到手势是具有对话能力的机器人的重要研究主题。根据人类共同语音手势的研究,用于映射的合理解决方案是使用基于概念的方法,其中文本首先映射到包含具有类似含义的文本的语义集群(即,概念)。随后,每个概念映射到预定义的手势。通过使用基于概念的方法,本文讨论了获得针对会话代理的独特词汇概念的实际问题。使用Microsoft Rinna作为代理商,我们通过通过社会学方法通过自然语言处理(NLP)方法来定制通过自然语言处理(NLP)方法来进行自动获得的概念。然后,我们确定了NLP方法的三个限制:用Emojis和符号的语义级别;在语义层面与俚语,新词和流行语;并且在务实的水平。我们将这些限制归因于rinna的个性化词汇。后续实验表明,使用基于概念的方法选择的机器人手势留下比rinna词汇的随机选择的手势更好的印象,这表明了基于概念的手势生成系统进行个性化词汇表。本研究提供了对具有个性化词汇表的会话代理商的姿态生成系统的开展了解。
translated by 谷歌翻译
机器学习(ML)与高能物理学(HEP)的快速发展的交集给我们的社区带来了机会和挑战。远远超出了标准ML工具在HEP问题上的应用,这两个领域的一代人才素养正在开发真正的新的和潜在的革命性方法。迫切需要支持跨学科社区推动这些发展的需求,包括在这两个领域的交汇处为专门研究提供资金,在大学投资高性能计算以及调整分配政策以支持这项工作,开发社区工具和标准,并为年轻研究人员提供教育和职业道路,从而吸引了机器学习的智力活力,以吸引高能量物理学。
translated by 谷歌翻译
本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译
鉴于HEP研究的核心,数据科学(DS)和机器学习(ML)在高能量物理学(HEP)中的作用增长良好和相关。此外,利用物理数据固有的对称性激发了物理信息的ML作为计算机科学研究的充满活力的子场。 HEP研究人员从广泛使用的材料中受益匪浅,可用于教育,培训和劳动力开发。他们还为这些材料做出了贡献,并为DS/ML相关的字段提供软件。物理部门越来越多地在DS,ML和物理学的交集上提供课程,通常使用HEP研究人员开发的课程,并涉及HEP中使用的开放软件和数据。在这份白皮书中,我们探讨了HEP研究与DS/ML教育之间的协同作用,讨论了此交叉路口的机会和挑战,并提出了将是互惠互利的社区活动。
translated by 谷歌翻译
提出了一种用于建模粒子促进剂中的梁壁相互作用的无网线方法。我们的方法的关键思想是使用深神经网络作为替代涉及粒子束的一组部分微分方程的替代品,以及表面阻抗概念。所提出的方法应用于具有薄导电涂层的加速器真空室的耦合阻抗,并与现有的分析配方相比验证。
translated by 谷歌翻译
最近在组合问题中寻找多样化的解决方案,最近受到了相当大的关注(Baste等人2020; Fomin等人2020; Hanaka等。2021)。在本文中,我们研究了以下类型的问题:给出了整数$ k $,问题询问了$ k $解决方案,使得这些解决方案之间的成对和汉明距离的总和最大化。这种解决方案称为各种解决方案。我们介绍了一种用于查找加权定向图中的多样性最短$ ST $ -Paths的多项式时间算法。此外,我们研究了其他经典组合问题的多样化版本,如不同的加权麦芽碱,不同加权树丛和多样化的双链匹配。我们表明这些问题也可以在多项式时间内解决。为了评估我们寻找多样性最短$ ST $ ST -Paths的算法的实际表现,我们进行了合成和现实世界的计算实验。实验表明,我们的算法在合理的计算时间内成功计算了各种解决方案。
translated by 谷歌翻译
我们提出了一种新的信息聚合方法,其基于编码器和解码器的特征映射之间的相似性称为本地特征聚合模块。该方法通过强调解码器的特征映射与具有卓越位置信息的特征映射的特征映射的相似性来恢复位置信息。该方法可以比U-Net和U-Net中的传统替代更有效地学习位置信息。此外,该方法还使用局部关注范围来降低计算成本。两种创新有助于提高计算成本较低的分割准确性。通过对果蝇单元格图像数据集和Covid-19图像数据集进行实验,我们证实了我们的方法表现出常规方法。
translated by 谷歌翻译
异常检测和本地化是计算机视觉中的重要问题。最近,卷积神经网络(CNN)已被用于视觉检查。特别是,异常样本的稀缺性增加了这项任务的难度,并且无监督的基于倾斜的方法都会引起注意力。我们专注于学生 - 教师特征金字塔匹配(STPM),可以从少量时期的普通图像训练。在这里,我们提出了一种强大的方法,可以补偿STPM的缺点。提出的方法包括两个学生和两位教师,即一对学生 - 教师网络与STPM相同。其他学生 - 教师网络具有重建普通产品的功能的作用。通过从异常图像重建正常产品的特征,可以通过在它们之间的差异来检测具有更高精度的异常。新的学生 - 教师网络使用原始STPM的注意力模块和不同的教师网络。注意机制以成功重建输入图像中的普通区域。不同的教师网络可以防止与原始STPM相同的区域。从两个学生 - 教师网络获得的六个异常地图用于计算最终的异常地图。用于重建的学生教师网络具有与原始STPM相比的像素级别和图像级别的改进AUC分数。
translated by 谷歌翻译